¡Advertencia!: Este documento contiene una propuesta de solución a la tarea 01 de la clase de econometría aplicada, impartida en el ITAM. Cualquier error en la propuesta de solución, es responsabilidad de la persona que lo resuelve.

Resuelve: Daniela Pinto Veizaga

1. Utilizando la base BaseCOVIDm realiza lo siguiente:

  1. Tasa de positividad acumulada para COVID-19 de cada país: \(POS_i= \frac{Confirmed}{Tests}\). Calcula la media y varianza muestral. Calcula un intervalo de confianza al \(95 %\) para la media.
  • Tasa de positividad acumulada para COVID-19 de cada país: \(POS_i= \frac{Confirmed}{Tests}\).
  • Distribución de la tasa de positividad
  • Media y varianza muestral de la tasa de positividad para COVID-19
## [1] "Media muestral de la tasa de positividad: 0.112"
## [1] "Varianza muestral de la tasa de positividad:  0.016"
  • Intervalo de confianza al 95 por ciento de la media de la tasa de positividad para COVID-19

En 95 de cada 100 muestras, va a aparecer la \(\mu\).

## [1] "Con un 95 por ciento de probabilidad, obtenemos un intervalo de confianza que contiene a la media poblacional. El intervalo de confianza obtenido es (0.077,0.147)."
  1. Dado el número reducido de pruebas que México ha hecho, te planteas la hipótesis de que México debe tener una tasa de positividad mayor que la media mundial. Plantea la prueba de hipótesis relevante para evaluar esta afirmación. Reporta el \(valor-p\) e indica que concluyes con respecto a la prueba hipótesis planteada.
  • Primero, averiguamos cuál es la tasa de positividad en México:
## [1] "Tasa de positividad en México:0.504531468289604"
  • Hipótesis de que México debe tener una tasa de positividad mayor que la media mundial.

Queremos probar la hipótesis que la tasa de positividad de México está por encima de la media mundial. Para ello, definimos nuestra prueba de hipótesis de la siguiente manera:

Sea:

  • \(\mu_{pos_{mundial}}\) := media mundial de positividad
  • \(pos_{mexico}\) : = tasa de positividad en México

\[H_o: \mu_{pos_{mundial}} = pos_{mexico}\] \[H_a: \mu_{pos_{mundial}} < pos_{mexico}\]

Como sabemos que la \(pos_{mexico}\) es igual 0.5045, nuestra prueba de hipótesis queda de la siguiente manera.

\[H_o: \mu_{pos_{mundial}} = 0.5045\]

\[H_a: \mu_{pos_{mundial}} < 0.5045\]

  • Estadístico t asociado:

\[t=\frac{\bar{y} -\mu_{pos_{mundial}}}{\sqrt{s^2/n}}\]

## [1] "El estadístico t es:-21.9431761600839"
## [1] "Para efectos prácticos, el p-value asociado a -21.9431761600839 es 0."

Conclusión: Como \(t\) < -1.645 (valor crítico que sale de la tabla de la distribución normal, con un nivel de confianza al 95 por ciento de confianza, prueba de una cola), no hay evidencia suficiente para aceptar la hipótesis nula, por lo que se acepta la hipótesis alternativa: la tasa de positividad en México está por encima de la media mundial. Además, el valor-p es menor a \(0.0000002\), mismo, que para efectos prácticos, asumimos que es cero. Por lo tanto, no hay evidencia suficiente para aceptar la hipótesis nula.

  1. Durante finales del año 2002 comenzó en diversas provincias de China el brote de SARS-CoV, que guarda similitudes con el SARS-CoV-2, virus responsable de la pandemia actual. Nos interesa comparar la tasa de fatalidad \((CFR)\) de ambas pandemias. Por esto crearás la variable \(CFR_i = \frac{Deaths_i}{Confirmed_i}\), la cual es la tasa de fatalidad del país \(i\). Un artículo periodístico indica que la tasa de fatalidad media del SARS-CoV es cuatro veces mayor que la del SARS-CoV-2. Plantea la prueba de hipótesis relevante para evaluar dicha afirmación y construye el estadístico \(t\) que necesitarías para realizar dicha prueba. Asume que la media de la tasa de fatalidad del SARS-CoV es conocida (de acuerdo a la OMS) e igual a \(9.6\) por ciento.
  • Plantamiento de hipótesis:

\[H_0:\mu_{CFR_{SARS-CoV-2}} = 0.024\] \[H_a: \mu_{CFR_{SARS-CoV-2}} \neq 0.024\]

  • Estadístico \(t\):

\[t=\frac{\hat{y} -\mu_{CFR_{SARS-CoV-2}}}{\sqrt{\frac{{s}^2}{n}}}\]

## [1] "El valor del estadístico t es:  2.589"
  • Encontramos el valor crítico, suponiendo un nivel de confianza del 95 por ciento y una prueba de hipótesis de dos colas, para compararlo contra el estadístico t.

\[VC = 1.96\]

Dado que \(|t|=|2.589|\) > \(z_{\alpha/2}=1.96\), nos encontramos en la región de rechazo. Esto significa que no contamos con suficiente envidencia para aceptar la hipótesis nula.

Lo anterior, visualmente se ve de la siguiente manera:

\(\therefore\) Si suponemos un nivel de significancia de 5 por ciento, tenemos evidencia suficiente para rechazar la hipótesis nula (\(\mu_{CFR_{SARS-CoV-2}} = 0.024\)), a favor de la hipótesis alternativa.

  1. Dada la media de la tasa de fatalidad del SARS-CoV (\(9.6%\)), ¿a partir de que nivel de confianza, el intervalo de confianza relevante para nuestra prueba de hipótesis ya no incluiría el valor de \(\frac{0.096}{4}\) ? Describe la relación entre tu respuesta y el \(valor-p\).

Partimos de la siguiente igualdad:

Sea:

  • \(vc\) := valor críticio

  • \(t\): = estadísticio t

  • \(\alpha\):= nivel de significancia

\[Pr (-vc < t < vc) = 1-\alpha\]

\[Pr (\bar{y}-vc*\frac{\sigma^2}{n} < \mu < \bar{y}+ vc *\frac{\sigma^2}{n}) = 1-\alpha\]

## [1] "Con un nivel de confianza de 99 por ciento, el intervalo de confianza es: ( 0.0240287542049542 , 0.0401348728463338 ). Es decir, con este nivel de confianza, el intervalo de confianza ya no incluye el valor de  0.024 . Para incluirlo, tendríamos que reducir nuestro nivel de confianza por debajo de 99 por ciento. Esto está relacionado con lo previamente obtenido, puesto que encontrar el p-value, a partir de un nivel de confianza es el análogo a obtener un intervalo de confianza. Por ello, los resultados obtenidos a través del estadístico t, el p-value y el intervalo de confianza confirman los siguiente: no tenemos evidencia suficiente a favor de la hipótesis nula."

2. Estamos interesados en conocer el porcentaje de la población total de cada país que ha contraido el virus (\(PPI_i\)), por ello creamos la variable \(PPI_i = \frac{Confirmed}{Population}\).

  • Base de datos BaseCOVIDp
  • Base de datos BaseCOVIDm
  1. Utilizando la base BaseCOVIDp construye un histograma de la variable \(PPI\) y calcula el primer cuartil de su distribución.
  • Histograma
  • Cuartiles
##       ppi           
##  Min.   :2.790e-06  
##  1st Qu.:2.654e-04  
##  Median :9.155e-04  
##  Mean   :2.908e-03  
##  3rd Qu.:3.600e-03  
##  Max.   :3.889e-02
  1. Utilizando la base BaseCOVID_m construye un histograma de dicha variable y calcula el primer cuartil.
  • Histrograma
  • Cuartiles
##       ppi           
##  Min.   :4.760e-06  
##  1st Qu.:3.552e-04  
##  Median :1.157e-03  
##  Mean   :3.400e-03  
##  3rd Qu.:4.067e-03  
##  Max.   :3.889e-02
  1. ¿Cuál es la relación que existe entre los histogramas de los incisos anteriores? ¿Ex-ante esperabas que los histogramas se parecieran?

Como se puede observar en la gráfica 5, tanto el histograma que se forma con la muestra de 100 países, como el histograma que se forma con los datos poblacionales, tienen la misma forma de distribución. Esto era esperado ex-ante porque partimos del hecho de que tenemos una muestras que es iid, representantiva de la población (es decir, que la muestra fue sampleada de manera aleatoria y las observaciones son iid entre sí). Además, considerando que \(N\) es igual \(182\), una \(n=100\) es suficientemente grande.

  1. Utilizando el método Bootstrap, genera \(1000\) submuestras del tamaño de la muestra original \((n = 100)\) partiendo de la base BaseCOVIDm. Para cada submuestra, calcula el primer cuartil y grafica un histograma de los \(1,000\) cuartiles estimados.
  1. Repite el inciso anterior pero ahora utilizando \(1000\) submuestras de tamaño \(70\). Utilizando una gráfica compara el histograma del inciso anterior con el histograma que se produce en este inciso. ¿Qué similitudes y diferencias notas?

En general, con ambos ejercicios, se arriban a histogramas con distribuciones más o menos parecidas. Sin embargo, es notorio que con el método de bootstrap, utilizando \(1000\) submuestras de tamaño \(100\), los datos están más concentrados; por el contrario, los primeros cuartiles, de las 1000 submuestras de tamaño \(70\), se encuentran esparcidos en un intervalo ligeramente más amplio. Es decir, tiene mayor varianza.

  1. Utilizando los resultados de los dos incisos anteriores construye un intervalo de confianza del \(99 %\) para el primer cuartil, grafícalos y ubica en dicha gráfica el valor del primer cuartil poblacional.
  • f.1.Forma empírica

  • Calculamos empíricamente el intervalo de confianza que contenga el 99 por ciento de los datos generados con el método Bootstrap, genera \(1000\) submuestras del tamaño de la muestra original \((n = 100)\) partiendo de la base BaseCOVIDm

##         0.5%        99.5% 
## 0.0002249924 0.0006600941

Es decir, con un 99 por ciento de confianza, el intervalo de confianza \((0.0002079159, 0.0006668458)\) contendrá el valor del primer cuartil poblacional.

  • Calculamos empíricamente el intervalo de confianza que contenga el 99 por ciento de los datos generados con el método Bootstrap, genera \(1000\) submuestras del tamaño de la muestra original \((n = 70)\) partiendo de la base BaseCOVIDm
##         0.5%        99.5% 
## 0.0002085010 0.0006725613

Es decir, con un 99 por ciento de confianza, el intervalo de confianza \((0.0001718742, 0.0006749836)\) contendrá el valor del primer cuartil poblacional.

  • El valor del primer cuartil poblacional
## [1] "El valor del primer cuartil poblacional es: 0.000265414230436884"

En el gráfico de arriba, se puede observar los intervalos de confianza (del \(99\) por ciento), que surgen de los dos conjuntos de submuestras que se generaron a partir del método de bootstrap para el primer cuartil. Podemos observar que el valor del primer cuartil poblacional se encuentra dentro de ambos intervalos de confianza.

  • f.2. Alternativa: suponiendo una distribución normal, calculamos los intervalos de confianza. Esta no es la vía correcta, pero lo estimamos para observar las diferencias con el método anterior.
## [1] "El intervalo de confianza de las 1000 submuestras de tamaño n=100, generadas a partir del método boostrap es (0.000129223222678816,0.000603674975844943)"
## [1] "El intervalo de confianza de las 1000 submuestras de tamaño n=70, generadas a partir del método boostrap es (0.000137069662331615,0.000630574920252511). Esto quiere decir que 99 de cada 100 muestras (con las características anteriores) van a contener a la media poblacional."

3. A lo largo de los meses que ha durado la pandemia han surgido diversas preguntas. Una de ellas, se enfoca en la relación que existe entre el porcentaje de personas a las que se les han realizado pruebas (\(PT = \frac{Tests}{Population}\)) y el porcentaje de personas contagiadas (\(PPO = \frac{Confirmed}{Population}\)). Utilizando los datos de BaseCOVIDm, contestaremos las siguientes preguntas.

  1. Realiza un diagrama de dispersión utilizando la variable \(PT\) en el eje \(X\) y \(PPI\) en el eje \(Y\).
  1. Sea \(PT_{mex}\) el valor de la variable \(PT\) para México. Explora cuántos países tienen una valor PT \(0.005\) mayores o menores al valor de \(PT_{mex}\). Utilizando sólo estos países, grafica un histograma de la variable PPI. Ubica en dicho gráfico el valor de la media de PPI (solo utilizando este conjunto de paises) y ubica el valor de la variable PPI corresponidente a México. ¿Está México por encima o por debajo de la media de estos países?
## [1] "Total de países con porcentajes similares al pt de México: 12"

Conforme con lo observado en la gráfica, si seleccionamos al grupo de países con cifras similares en términos de personas con pruebas, México reporta un porcentaje de personas contagiadas mayor a la media del grupo seleccionado. Esto indica que el caso mexicano es un caso atípico entre sus similares. Mayores estudios deben ser llevados a cabo para llegar a conclusiones al respecto, pero, considerando los problemas y críticas que se han reportado en referencia a los retrasos en conteos de muertes y contagios en el sistema de información mexicano, este porcentaje podría ser aún mayor.

  1. Utilizando el método de mínimos cuadrados ordinarios, estima la siguiente regresión: \(PPI_i = \beta_{0} + \beta_1 PT_i + U_i\). Grafica la recta que resulta de esta regresión junto con el diagrama de dispersión y resalta el punto que corresponde a México en dicha gráfica. ¿Está México por encima o por debajo de la recta? ¿Cómo se relaciona esta respuesta con la pregunta del inciso anterior?
## 
## Call:
## lm(formula = ppi ~ pt, data = data_m)
## 
## Coefficients:
## (Intercept)           pt  
##    0.001544     0.046556

\[\beta_0 = 0.001544\] \[\beta_1 = 0.046556\]

Realizando una regresión para medir la relación entre el porcentaje de pruebas y el porcentaje de infectados, vemos que, en promedio, la relación entre porcentaje de pruebas y porcentaje de personas infectadas es de 0.046556 puntos. Sin embargo, para el caso de México, observamos que hay mayor error de predicción de la regresión propuesta, puesto que en el caso mexicano, parece ser que la relación entre porcentaje de pruebas y porcentaje de infectados es mayor al promedio. Esto, es un caso atípico, pues como se corroboró en el ejercicio anterior, aún controlando a México entre sus pares (en términos de porcentaje de pruebas realizadas), México, según las cifras oficiales, es un país con mayor número de contagiados.

  1. Describe brevemente (menos de 200 palabras) qué similitudes y diferencias tienen ambas estrategias.

Ambas estrategias son complementarias. En la primera estrategia, condicionamos el análisis o estudio comparativo del caso mexicano al conjunto de países similares a México en términos a porcentaje de pruebas realizadas. En la segunda estrategia, no ocurre ningún tipo de condicionamiento; por el contrario, se mide la relación promedio entre entre el porcentaje de pruebas realizadas y el porcentaje de infectados. La similitud entre ambos estrategias deviene en el siguiente hecho: en ambos caso, analizamos el caso mexicano, comparando con resultados promedios. En el caso de la primera estrategia, contra el promedio de porcentajes de infectados (de los países previamente seleccionados); en el caso de la segunda estrategia: el promedio de los efectos o relación entre el porcentaje de pruebas realizadas y el porcentaje de personas infectadas.

  1. Describe brevemente (menos de 200 palabras) qué diferencia teórica hubiera hecho utilizar la base BaseCOVIDp para contestar las preguntas. No busco que describan la diferencia en cuanto a los números y los resutlados de volver a contestar los incisos anteriores, sino la diferencia conceptual de usar una u otra base de datos.

Si la muestra fue sampleada de manera aleatoria y es representativa de la población general, no existiría diferencia alguna entre los resultados obtenidos con la BaseCOVIDp y la BaseCOVIDm. Sin embargo, si la muestra no fue sampleada mediante un proceso aleatorio, podríamos obtener resultados muy distintos, siendo que podrían existir paíes sub o sobrerepresentados.

4. Considerando que en el mundo hay un total de 195 países y que la base poblacional que se proporcionó (BaseCOVIDp) tiene información de únicamente 182, ¿qué países pueden estar subrepresentados en la base muestral?, ¿Cómo afecta esto a la definición de nuestros parámetros poblacionales?, ¿cómo se vería reflejado esto en nuestro estimador y en el valor estimado muestral? Límite de palabras: 300.

Los países que pueden estar subrepresentados son los países que tienen características epidemiológicas y sociodemográficas similares a los 13 países faltantes en la BaseCOVIDp.

En específico:

  1. los parámetros poblacionales no cambiarían porque la población es una sola; por tanto, sus parámetros, al no presentar aleatoriedad, no cambian.
  2. si existen países subrepresentados o sobrerepresentados, el estimador podría cambiar en términos de los ponderadores empleados. Es decir, para poder representar a la población de manera adecuada, sabiendo ex-ante qué características tiene la población subrepresentada, podríamos modificar nuestro estimador.
  3. como el valor estimado muestral es dependiente de la muestra sampleada, el valor estimado sí variaría, dependiendo de las características de la población subrepresentada.

En conclusión, es importante especificar que la población de referencia es la de 182 países. Es decir, que las inferencias realizadas son sobre los 182 países de la base de datos y no sobre la población mundial. Para poder hacer inferencia sobre todo el mundo a partir de la información de los 182 países, se tendría que estudiar si los datos faltantes se deben al azar. Es decir, que no sea sistemático el patrón que hace que los países no tenga información. Como ejemplo, supongamos que todos los países que faltan no tienen un sistema de salud robusto o que todos son países de ingresos bajos o que todos son páises con una gran proporción de población vulnerable. Si ese fuera el caso, entonces no se podría decir que por azar no se cuenta con esos datos. Para verificar si se debe al azar, se podría realizar una prueba con la paquetería Little’s missing completely at random (MCAR), que consiste en verificar que los datos faltantes se deben al azar (missing completely at random).